前列腺活检和图像引导的治疗程序通常是在与磁共振图像(MRI)的超声指导下进行的。准确的图像融合依赖于超声图像上前列腺的准确分割。然而,超声图像中降低的信噪比和工件(例如,斑点和阴影)限制了自动前列腺分割技术的性能,并将这些方法推广到新的图像域是本质上很难的。在这项研究中,我们通过引入一种新型的2.5D深神经网络来解决这些挑战,用于超声图像上的前列腺分割。我们的方法通过组合有监督的域适应技术和知识蒸馏损失,解决了转移学习和填充方法的局限性(即,在更新模型权重时,在更新模型权重时的性能下降)。知识蒸馏损失允许保留先前学习的知识,并在新数据集上的模型填充后降低性能下降。此外,我们的方法依赖于注意模块,该模块认为模型特征定位信息以提高分割精度。我们对一个机构的764名受试者进行了培训,并仅使用后续机构中的十个受试者对我们的模型进行了审核。我们分析了方法在三个大型数据集上的性能,其中包括来自三个不同机构的2067名受试者。我们的方法达到了平均骰子相似性系数(骰子)为$ 94.0 \ pm0.03 $,而Hausdorff距离(HD95)为2.28 $ mm $,在第一机构的独立受试者中。此外,我们的模型在其他两个机构的研究中都很好地概括了(骰子:$ 91.0 \ pm0.03 $; hd95:3.7 $ mm $ and Dice:$ 82.0 \ pm0.03 $; hd95 $; hd95:7.1 $ mm $)。
translated by 谷歌翻译
Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.
translated by 谷歌翻译
We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a constant fraction of adversarially-corrupted samples.
translated by 谷歌翻译
Recent work shows that the expressive power of Graph Neural Networks (GNNs) in distinguishing non-isomorphic graphs is exactly the same as that of the Weisfeiler-Lehman (WL) graph test. In particular, they show that the WL test can be simulated by GNNs. However, those simulations involve neural networks for the 'combine' function of size polynomial or even exponential in the number of graph nodes $n$, as well as feature vectors of length linear in $n$. We present an improved simulation of the WL test on GNNs with \emph{exponentially} lower complexity. In particular, the neural network implementing the combine function in each node has only a polylogarithmic number of parameters in $n$, and the feature vectors exchanged by the nodes of GNN consists of only $O(\log n)$ bits. We also give logarithmic lower bounds for the feature vector length and the size of the neural networks, showing the (near)-optimality of our construction.
translated by 谷歌翻译
在本文中,我们提出了针对无人接地车辆(UGV)的新的控制屏障功能(CBF),该功能有助于避免与运动学(非零速度)障碍物发生冲突。尽管当前的CBF形式已经成功地保证了与静态障碍物的安全/碰撞避免安全性,但动态案例的扩展已获得有限的成功。此外,借助UGV模型,例如Unicycle或自行车,现有CBF的应用在控制方面是保守的,即在某些情况下不可能进行转向/推力控制。从经典的碰撞锥中汲取灵感来避免轨迹规划,我们介绍了其新颖的CBF配方,并具有对独轮车和自行车模型的安全性保证。主要思想是确保障碍物的速度W.R.T.车辆总是指向车辆。因此,我们构建了一个约束,该约束确保速度向量始终避开指向车辆的向量锥。这种新控制方法的功效在哥白尼移动机器人上进行了实验验证。我们将其进一步扩展到以自行车模型的形式扩展到自动驾驶汽车,并在Carla模拟器中的各种情况下证明了避免碰撞。
translated by 谷歌翻译
Natarajan维度是表征多级PAC可学习性的基本工具,将VAPNIK-CHERVONENKIS(VC)维度推广到从二进制到多类分类问题。本说明在某些功能类别的Natarajan维度上建立了上限,包括(i)多级决策树和随机森林,以及(ii)具有二进制,线性和relu激活的多级神经网络。这些结果可能与描述某些多级学习算法的性能有关。
translated by 谷歌翻译
在过去的十年中,由于雷达目的的现场特异性,高保真射频(RF)建模和仿真工具的催化,在过去的十年中,经典方法的数据驱动公式迅速增长。尽管有这种激增,但有限的焦点已针对这些经典方法的理论基础。在这方面,作为我们正在进行的数据驱动的雷达时空自适应处理方法(Stap)的一部分,我们在雷达目标定位的背景下分析了精选子空间分离方法的渐近性能保证,并通过拟议目标位置估计的深度学习框架。在我们的方法中,我们通过使用RFView(由ISL Inc.开发的一个特定于站点的RF建模和模拟工具)将可变强度的目标随机放置在预定的约束区域中。在范围内,方位角和归一化自适应匹配过滤器(NAMF)测试统计量以及广义Sidelobe canceller(GSC)的输出功率的高度。使用我们的深度学习框架,我们从这些热图张量估算目标位置,以证明我们数据驱动方法在匹配和不匹配的设置中提供的可行性和显着改进。
translated by 谷歌翻译
在启用语音的应用程序中,一个预定的热词在同时用来激活设备以便进行查询。 toavoid重复一个热词,我们提出了一个端到端的流(E2E)打算查询检测器,该查询检测器识别向设备指向的发音,并滤除针对设备的其他发出内容。提出的方法将预期的查询检测器置于E2E模型中,该模型将语音识别的不同组件折叠成一个神经网络。E2E对台面解码和预期的查询检测进行建模,也使我们可以基于早期的部分偏置检测结果, ,这对于减少潜伏期和使系统响应很重要。我们证明,与独立的预期检测器相比,检测准确性和600个MSLATENCE的相对相对改善的相对提高一级误差率(EER)的相对提高了22%。在我们的实验中,提出的模型检测用户正在用用户开始讲话后,用8.7%的Eerwithin与设备进行对话。
translated by 谷歌翻译
给定有关消费者对不同分类的选择的数据,一个关键的挑战是开发描述和预测消费者选择行为的简约模型。一个这样的选择模型是边际分布模型,它仅需要替代方案随机实用程序的边际分布的规范,以解释选择数据。在本文中,我们开发了一组选择概率的精确表征,这些概率是通过边际分布模型在任何集合中始终如一地表示的。为了根据其实用程序的边际分布进行分组的可能性,我们表明(a)在多项式时间内可以验证选择概率数据的一致性,并且(b)找到最接近的拟合量可以减少解决混合的拟合。整数凸面程序。我们的结果表明,与随机效用模型相比,与多项式logit相比,边际分布模型提供了更好的代表力和更好的计算性能。
translated by 谷歌翻译
在这项工作中,我们证明了多种语的大规模序列到序列(SEQ2SEQ)模型,该模型是通过Denoising和因果语言建模(CLM)任务的混合物进行训练的,比仅解码器模型更有效地进行了效率的学习者在各种任务上。特别是,我们培训了一个名为Alexa教师模型(Alexatm 20b)的200亿个参数多语言SEQ2SEQ模型,并表明它在1-Shot摘要任务上实现了最先进的(SOTA)性能,超过了更大的540B PALM DOPODER模型。 Alexatm 20b还可以在1-Shot Machine翻译中实现SOTA,尤其是对于低资源语言,几乎所有语言对(阿拉伯语,英语,法语,德语,德语,印地语,意大利语,日语,以及flores-101数据集上的泰卢固语)。我们还显示了零拍设置,AlexATM 20B在SuperGlue和SqueadV2数据集上的表现优于GPT3(175B),并在XNLI,XCOPA,PAWS-X和XWINOGRAD等多语言任务上提供SOTA性能。总体而言,我们的结果为SEQ2SEQ模型提供了一个令人信服的案例,作为大型语言模型(LLM)培训的仅解码器模型的强大替代方法。
translated by 谷歌翻译